- The Types of the Error or Noise
- 측정시스템: feature 측정에서의 잡음
- 비정보성 변수: outcome과 상관없는 변수가 모델링에 쓰일 때
- 응답변수: label의 문제
cf.
원래의 응답 변수가 연속형이더라도 이를 범주형 응답 변수화하기를 원함
이유)
원래의 응답 변수가 연속형이더라도 이를 범주형 응답 변수화하기를 원함
이유)
전제: 현재 존재하는 데이터를 만드는 방법과 동일한 방식으로 데이터를 계속 만들 것
새 데이터 데이터 생성 과정
예측에 사용할 새 데이터가 훈련 데이터와 충분히 유사하다면,
이 데이터 값은 모델 성능 추정값(e.g. 정확도)을 평균적으로 따를 것이라 가정